我們在上一篇文章中談到可以使用Google Cloud Platform提供的兩項服務,分別是BigQuery與Datalab,來執行我們機器學習流程當中資料分析工作。而他們確切到底是個什麼樣的服務? 可以提供什麼樣的功能? 今天的文章主要會著重在說明這兩個服務上。
首先是BigQuery(註1),BigQuery簡單的來說就是一項 雲端資料倉儲(Cloud Data Warehouse) 服務,這樣的一個無伺服器(Serverless)服務能夠讓使用者簡單地,毋需擔心基礎架構的建置,建立起資料倉儲。接著便可以使用各位熟悉的SQL語言,飛快地進行大規模的資料分析,而除了我們熟悉的資料庫查詢功能之外,BigQuery甚至還提供了處理串流資料與機器學習等許多的功能。
接下來是Datalab(註2),Datalab是一套以Jupyter為基礎開發的互動式資料分析工具,在上面我們可以使用資料分析領域工作者大多熟悉的Python語言,進行資料探索性分析、資料處理與建立機器學習模型等工作。且由於Datalab本身可以輕鬆地連線至其他Google Cloud Platform上的服務,這樣的特點更讓我們在使用Datalab時,被賦予了方便且強大的功能,使得資料分析人員可以專心且高效地產出優良的結果,比如說透過在Datalab中使用BigQuery的功能,我們便可以毫無負擔地享受在BigQuery上快速地查詢GB甚至TB量級的資料,並將結果清楚且互動式呈現至Datalab上,又或者我們也可以在Datalab上使用TensorFlow與Cloud Machine Learning Engine(註3)這項模型代管服務,執行機器學習的相關工作。
下一篇文章中,我將和各位展示一個結合使用BigQuery與Datalab進行資料分析的簡單範例。